DeL-ToM 的一些解读
正在研究 DeL-ToM,我们来解读一下说了什么,不得不说看起来确实很神奇。
符号逻辑
不知道磕符号逻辑是否值得,当下符号验证效果挺烂的。(
认知模型
几个基础定义:
: 所有事件的集合,这个事件可以比较宽泛,例如一个基本事实,一个推理结论。 :人物,说是智能体,理解成参与的几个人就可以。 :命题,主要说说 ,即角色 觉得 是真的。
-
:视角集合,例如上帝视角,小A的认知,小B的认知。 -
:可以认为是一个角色认为的视角可达图,例如在上帝眼中,几个视角都是相通的,但小 A 就不能从自己的视角跳到小 B 的视角。
关于我觉得比较好的理解是有向图,每个人维护了一个有向图,后面就按照有向图来说明了。 -
:显然不同视角下一些命题可能为假,所以每个命题维护了一个 true/false 表示哪些视角下是真的。
一个完整的体系可以被综合为
:命题 在视角 下是真,运用 表示。 :这个比较复杂,理一下关系,在 视角下 认为 是真,那么应该在 的所有可达视角下 都为真(比如下面这个图, 不满足,所以寄寄)。
理论上
图应该设计成等价关系,视角的变换是对称的。
事件模型
事件模型
是事件集合,例如物品被转移了。 比较有意思,用于描述信息不对称:
还是以有向图为例,每个角色维护了一个事件的有向图,当一个事件有出边时表示在这个角色眼中,没有发生事件 ,可能发生事件 ,注意这个"可能",允许多出边。
文中没有对
每个事件都有,发生这个事件的前提和回调。
积更新
没看懂()
问了 AI 简单的理解为:一个世界模型在经历一个事件后会生成新的世界模型,其中:
:新的视角将结合所有的老视角和该事件,可以认为是一个笛卡尔积。 - 有向图连接:若老世界下两个视角有连边,事件集合下两个事件有连边,则这两个新视角连边,即
的条件为 。 :一个事件的状态遵循继承关系,即当没有显示改变其状态时,保持不变。
PBM
基于这个符号系统,事实上我们可以用写死的算法直接模拟上述流程,这样提供了一个 0噪声 数据集!
我觉得这是厉害,现有的大多数 ToM 训练用另一个大模型做打分器,但这样就是矛盾的:既然现在大模型也做不了 ToM 的东西,那它生成的结果你凭什么相信,这样的黑盒就必然会引入噪声。相比,用算法直接模拟的结果可以百分百正确,效果必然好。但是其问题不能忽视:定义那一坨符号也是够费事的。
我们的目标是对多轮轨迹打分,可以随便拉一个模型也生成逻辑,通过一个固定的视角链,这也能用算法提取,举一个例子,附录中提到的:
Owen thinks Liam thinks Chloe thinks the celery is in [ green_bucket ]
这个格式必须写死。这样就获得了正负样本,直接训练一个二分类器就可以。
预测时的打分策略
基于上述符号表达,一个 ToM 问题可以分解为多个积更新步骤,最后得出结果。
对于 Beam Search 来说,会让模型每次生成
对于 BoN 来说,其类似 grpo ,直接生成
文章后面证明:小模型更适合 BoN ,具体为什么还没看(),大致思路是小模型在 Beam Search 中往往第一步生成就全错。
!TODO:补充附录中证明。
从工程角度来讲,BoN 无法做到非阻塞输出,其本质是阻塞输出的。但我们可以动点歪心思,把 CoT 里面(给用户看的),内部自己打分,最后选一个输出出来就可以(乐)。
一些思考
其实 DeL-ToM 是一个显示的提示词调优,没有做任何参数修改,最终的结果是一个 PBM 打分器。
但其能将模型性能提升的很好,评价为概率模型魅力时刻,我多生成一堆,就有概率刷出正确的。
另外:符号推理不是人写的QED,看都看不懂。
可能后续还要再看一下,太 tm 抽象了。